Consideremos a seguinte situação:
| Atributo | |||||||
|---|---|---|---|---|---|---|---|
| Marca | Qualidade | Tecnologia | Potência | Recursos | Preço | Marca | Total |
| Sony | 135 | 140 | 95 | 55 | 40 | 60 | 525 |
| Aiwa | 50 | 115 | 40 | 60 | 5 | 15 | 285 |
| Gradiente | 90 | 55 | 20 | 35 | 40 | 10 | 250 |
| Philips | 60 | 25 | 35 | 10 | 5 | 30 | 165 |
| Sharp | 30 | 20 | 5 | 10 | 10 | 20 | 95 |
| Total | 365 | 355 | 195 | 170 | 100 | 135 | 1320 |
Que marca de aparelho de som é mais adquirida em função do preço?
Consideremos a seguinte situação:
| Grau de Disclosure | ||||
|---|---|---|---|---|
| Controle Acionário | Alto | Médio | Baixo | Total |
| Asiático | 8 | 10 | 13 | 31 |
| Brasileiro | 34 | 27 | 14 | 75 |
| Americano | 16 | 19 | 39 | 74 |
| Europeu | 3 | 2 | 1 | 6 |
| Latino | 10 | 17 | 3 | 30 |
| Total | 71 | 75 | 70 | 216 |
Análise de Correspondências: Técnica multiariada que visa medir o grau de associação de variáveis categorizadas dispostas em tabelas de contingência.
Tabela de contingência: De modo geral, uma tabela de contingência \(a \times b\) é do tipo:
| Variável Y | |||||||
|---|---|---|---|---|---|---|---|
| 1 | 2 | \(\cdots\) | \(b\) | Total | |||
| 1 | \(n_{11}\) | \(n_{12}\) | \(\cdots\) | \(n_{1b}\) | \(n_{1 \cdot}\) | ||
| Variável X | 2 | \(n_{21}\) | \(n_{22}\) | \(\cdots\) | \(n_{2b}\) | \(n_{2 \cdot}\) | |
| \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\ddots\) | \(\vdots\) | \(\vdots\) | ||
| \(a\) | \(n_{a1}\) | \(n_{a2}\) | \(\cdots\) | \(n_{ab}\) | \(n_{a \cdot}\) | ||
| Total | \(n_{\cdot 1}\) | \(n_{\cdot 2}\) | \(\cdots\) | \(n_{\cdot b}\) | \(n_{\cdot \cdot} = n\) | ||
\(n_{ij}\) representa o número de elementos que pertencem à categoria \(i\) da variável \(X\) e à categoria \(j\) da variável \(Y\)
Matriz de correspondências: A tabela de contingência acima pode ser convertida em uma matriz de correspondência \(\mathbf{P}\):
| Variável Y | ||||||
|---|---|---|---|---|---|---|
| 1 | 2 | \(\cdots\) | \(b\) | Total | ||
| 1 | \(p_{11}\) | \(p_{12}\) | \(\cdots\) | \(p_{1b}\) | \(p_{1 \cdot}\) | |
| Variável X | 2 | \(p_{21}\) | \(p_{22}\) | \(\cdots\) | \(p_{2b}\) | \(p_{2 \cdot}\) |
| \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\ddots\) | \(\vdots\) | \(\vdots\) | |
| \(a\) | \(p_{a1}\) | \(p_{a2}\) | \(\cdots\) | \(p_{ab}\) | \(p_{a \cdot}\) | |
| Total | \(p_{\cdot 1}\) | \(p_{\cdot 2}\) | \(\cdots\) | \(p_{\cdot b}\) | \(p_{\cdot \cdot} = 1\) | |
\[\begin{equation} \mathbf{P} = (p_{ij})=\left(\frac{n_{ij}}{n}\right) \end{equation}\]
A última coluna da Tabela acima contém as somas das linhas, isto é, \(p_{i \cdot}=\displaystyle \sum_{j=1}^{b}p_{ij}\). Essa coluna pode ser representada por um vetor, denotado por \(\mathbf{r}\):
\[\mathbf{r} = \mathbf{P} \mathbf{j} = (p_{1 \cdot}, p_{2 \cdot}, \cdots, p_{a \cdot})^{t}=\left ( \frac{n_{1 \cdot}}{n}, \frac{n_{2 \cdot}}{n}, \cdots, \frac{n_{a \cdot}}{n} \right )^{t}\]
em que \(\mathbf{j}\) é um vetor \(1 \times b\) de \(1\)’s.
Analogamente, temos o vetor \(\mathbf{c}\) com as somas das colunas:
\[\mathbf{c}=\mathbf{j}^{t}\mathbf{P}=(p_{\cdot 1}, p_{\cdot 2}, \cdots, p_{\cdot b})=\left ( \frac{n_{ \cdot 1}}{n}, \frac{n_{\cdot 2}}{n}, \cdots, \frac{n_{\cdot b}}{n} \right )\]
em que \(p_{\cdot j}= \displaystyle \sum_{i=1}^{a}p_{ij}\).
A matriz de correspondência e os totais marginais na tabela de correspondências podem ser expressos como:
\[\begin{bmatrix}\mathbf{P} & \mathbf{r}\\ \mathbf{c}^{t} & 1 \end{bmatrix}=\begin{bmatrix} p_{11} & p_{12} & \cdots & p_{1b} & p_{1\cdot} \\ p_{21} & p_{22} & \cdots & p_{2b} & p_{2\cdot} \\ \vdots & \vdots & \ddots & \vdots & \vdots\\ p_{a1} & p_{a2} & \cdots & p_{ab} & p_{a\cdot}\\ p_{\cdot1} & p_{\cdot2} & \cdots & p_{\cdot b} & 1 \end{bmatrix}\]
Podemos então definir as matrizes \(\mathbf{D}_{r}\) e \(\mathbf{D}_{c}\) como:
\[\mathbf{D}_{r}=\begin{bmatrix}p_{1 \cdot} & 0 & \cdots & 0\\ 0 & p_{2 \cdot} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & p_{a \cdot}\end{bmatrix}\ \ \ \mathrm{e} \ \ \ \mathbf{D}_{c}=\begin{bmatrix}p_{ \cdot 1} & 0 & \cdots & 0\\ 0 & p_{\cdot 2} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & p_{\cdot b}\end{bmatrix}\]
Considere a matriz \(\mathbf{Z}=\mathbf{D}_r^{-\frac{1}{2}}(\mathbf{P}-\mathbf{r}\mathbf{c}^{t})\mathbf{D}_c^{-\frac{1}{2}}\).
Pode-se decompor a matriz \(\mathbf{Z}\) através de sua decomposição em valores singulares (SVD), obtendo-se o resultado:
\[\mathbf{Z}= \mathbf{U}\mathbf{\Lambda} \mathbf{V}^{t}\]
em que \(\mathbf{U}^t\mathbf{U} = \mathbf{V}^t\mathbf{V} = \mathbf{I}\)
em que
Considere ainda as matrizes:
Assim, as coordenadas principais das linhas da matriz \(\mathbf{Z}\) são dadas como:
\[\mathbf{X}_{a \times k}=\mathbf{D}_{r}^{-1}\mathbf{A}_{a \times k}\mathbf{\Delta}_{k \times k}\]
e as coordenadas principais das colunas da matriz \(\mathbf{Z}\) são dadas por:
\[\mathbf{Y}_{b \times k}=\mathbf{D}_{c}^{-1}\mathbf{B}_{b \times k}\mathbf{\Delta}_{k \times k}\]
A inércia total, que é a variação total existente no sistema é dada por:
\[\text{Inércia Total} = \displaystyle \sum_{i=1}^{k}\lambda_{i}^{2}\]
em que \(\lambda_{i}\) são os valores singulares obtidos a partir da decomposição do valor singular de \(\mathbf{Z}\), \(i=1,\cdots, k\).
A proporção de explicação, da i-ésima coordenada principal em relação à inércia total \((\pi)\) é dada por:
\[\pi_i = \displaystyle \frac{\lambda_{i}^{2}}{ \displaystyle \sum_{i=1}^{k}\lambda_{i}^{2}}\]
A inércia total, está relacionada com a estatística qui-quadrado da seguinte forma:
\[\text{Inércia Total} = \displaystyle \sum_{i=1}^{k}\lambda_{i}^{2} = \displaystyle{\frac{\chi^2}{n}}\]
Os dados referem-se à uma pesquisa interessada em investigar se existe ou não algum tipo de relação entre a origem de capital (asiático, brasileiro, americano, europeu ou latino) e o nível de transparência das informações contábeis (alto, médio ou baixo) de empresas pertencentes à uma amostra de tamanho 216.
| Grau de Disclosure | ||||
|---|---|---|---|---|
| Controle Acionário | Alto | Médio | Baixo | Total |
| Asiático | 8 | 10 | 13 | 31 |
| Brasileiro | 34 | 27 | 14 | 75 |
| Americano | 16 | 19 | 39 | 74 |
| Europeu | 3 | 2 | 1 | 6 |
| Latino | 10 | 17 | 3 | 30 |
| Total | 71 | 75 | 70 | 216 |
Gráfico que projeta as categorias de linhas e colunas em um único plano. Permite uma interpretação visual imediata.
Contribuição (contrib): Qual categoria de origem do capital contribui mais para a formação da dimensão 1?
O gráfico nos mostra que a Dimensão 1 é predominantemente impulsionada pelas diferenças nas características das empresas de capital Americano, Brasileiro e Latino. As empresas de capital Asiático e Europeu contribuem muito menos para essa dimensão, sugerindo que a sua posição no gráfico é menos influente na definição do principal eixo de variação. Essa informação é crucial para entender a hierarquia de importância de cada categoria na sua análise.
Contribuição (contrib): Qual categoria de origem do capital contribui mais para a formação da dimensão 2?
O gráfico de contribuições para a Dimensão 2 esclarece que, embora o primeiro eixo (Dimensão 1) seja dominado pelas diferenças em relação à origem americana, a segunda dimensão é quase inteiramente impulsionada pelas empresas de capital latino e, em menor grau, brasileiro. Isso nos ajuda a entender a nuance nas associações que o biplot mostrou: a segunda dimensão separa claramente as empresas latinas e brasileiras das demais, complementando a distinção principal observada na primeira dimensão.
Contribuição (contrib): Qual categoria de níveis de transparência contribui mais para a formação de uma dimensão 1?
O gráfico confirma que a Dimensão 1 é predominantemente impulsionada pela categoria de transparência Baixo. Essa categoria é o principal motor da variação no primeiro eixo, enquanto as categorias de transparência Alto e Médio desempenham um papel secundário.
Em conjunto com os gráficos de contribuição das linhas (origem do capital), este gráfico reforça a conclusão de que o principal contraste nos dados é entre a baixa transparência (associada a capital americano e asiático) e o restante da amostra.
Contribuição (contrib): Qual categoria de níveis de transparência contribui mais para a formação de uma dimensão 2?
O gráfico confirma que, enquanto a primeira dimensão é impulsionada pela distinção entre transparência Baixa e os demais níveis, a segunda dimensão é definida pela distinção entre as transparências Média e Alta. Isso explica o que vimos no biplot: a Dimensão 2 separa as empresas com transparência média (associadas ao capital latino) daquelas com transparência alta (associadas ao capital europeu).
A análise de correspondência múltipla (ACM) é uma extensão da ACS. Os objetivos dessa análise são:
A ACM é de emprego mais frequente que a ACS, uma vez que a maioria das tabelas de dados estatísticos costuma apresentar muitas variáveis categóricas, necessitando de uma análise simultânea de todas as características em um mapa de baixa dimensionalidade.
O tratamento matemático dado à ACM sofre apenas ligeiras adaptações em relação à ACS.
Tabela de códigos condensados: tabela obtida através da codificação das categorias das variáveis.
Matriz Indicadora: A matriz indicadora provém da tabela de códigos condensados pelo desdobramento de cada coluna relativa a uma característica em tantas colunas quantas forem suas categorias.
Para cada indivíduo, registra-se o valor 1 se determinada modalidade foi verificada, e, 0 caso contrário.
Para efetuar a ACM, parte-se da matriz indicadora \(\mathbf{X}\) de \(I\) casos e \(J\) características, realizam-se as mesmas operações de decomposição em valores singulares e cálculos de coordenadas realizados na ACS.
O estudo de caso refere-se aos dados estatísticos de uma operadora de créditos. As características em estudo encontram-se resumidas no Quadro abaixo:
| Variável | Descrição | Categorias |
|---|---|---|
| Qualid | Qualidade do cliente | bom; mau |
| Idade | Idade do cliente | menor que 25; entre 25 e 45; maior que 45 |
| EstCiv | Estado civil | solteito; casado; separado; viúvo |
| Poup | Valor em poupança | menos de 10mil; entre 10 e 100mil; mais que 100mil |
| CatProf | Categoria da profissão | executivo; profissional liberal; empregado; outro |
| SMB | Saldo bancário | menos de 5mil; entre 5 e 20 mil; mais que 20mil |
| Divida | Montante da dívida | menos de 10mil; entre 10 e 50mil; mais que 50 mil |
| BImovs | Valor dos bens imóveis | menos de 15mil; entre 15 e 100mil; mais que 100mil |
tabela <- read.table("https://raw.githubusercontent.com/tiagomartin/est022/refs/heads/main/dados/acm_dados_2.dat",header=TRUE)
tabela Caso Qualid Idade EstCiv Poup CatProf SMB
1 1 mau idade<25 solteiro poup<10mil empregado SMB5a20mil
2 2 mau idade<25 casado poup<10mil empregado SMB<5mil
3 3 mau idade<25 solteiro poup<10mil outro SMB<5mil
4 4 bom idade<25 solteiro poup<10mil empregado SMB5a20mil
5 5 mau idade<25 solteiro poup10a100mil prof_liberal SMB<5mil
6 6 mau idade<25 casado poup<10mil outro SMB<5mil
7 7 bom idade<25 solteiro poup<10mil empregado SMB5a20mil
8 8 mau idade<25 separado poup<10mil empregado SMB5a20mil
9 9 mau idade<25 casado poup<10mil outro SMB<5mil
10 10 mau idade25a45 solteiro poup10a100mil empregado SMB<5mil
11 11 bom idade25a45 casado poup>100mil prof_liberal SMB>20mil
12 12 bom idade25a45 casado poup10a100mil empregado SMB>20mil
13 13 mau idade25a45 separado poup10a100mil outro SMB<5mil
14 14 bom idade25a45 casado poup>100mil empregado SMB5a20mil
15 15 bom idade25a45 casado poup10a100mil empregado SMB5a20mil
16 16 mau idade25a45 casado poup10a100mil empregado SMB<5mil
17 17 mau idade25a45 solteiro poup10a100mil empregado SMB<5mil
18 18 mau idade25a45 separado poup10a100mil prof_liberal SMB5a20mil
19 19 bom idade25a45 casado poup>100mil executivo SMB>20mil
20 20 bom idade25a45 casado poup<10mil prof_liberal SMB>20mil
21 21 mau idade25a45 casado poup10a100mil executivo SMB5a20mil
22 22 bom idade25a45 casado poup>100mil executivo SMB>20mil
23 23 mau idade25a45 separado poup10a100mil prof_liberal SMB>20mil
24 24 mau idade25a45 solteiro poup10a100mil empregado SMB5a20mil
25 25 bom idade25a45 casado poup>100mil executivo SMB>20mil
26 26 bom idade25a45 casado poup>100mil prof_liberal SMB5a20mil
27 27 mau idade25a45 separado poup10a100mil outro SMB<5mil
28 28 mau idade25a45 casado poup10a100mil empregado SMB5a20mil
29 29 mau idade25a45 casado poup<10mil outro SMB<5mil
30 30 bom idade>45 casado poup>100mil executivo SMB>20mil
31 31 bom idade>45 casado poup10a100mil empregado SMB5a20mil
32 32 mau idade>45 solteiro poup>100mil prof_liberal SMB5a20mil
33 33 mau idade>45 casado poup10a100mil empregado SMB<5mil
34 34 bom idade>45 casado poup10a100mil outro SMB<5mil
35 35 mau idade>45 viuvo poup10a100mil prof_liberal SMB>20mil
36 36 bom idade>45 casado poup10a100mil executivo SMB>20mil
37 37 bom idade>45 casado poup>100mil prof_liberal SMB>20mil
38 38 mau idade>45 casado poup>100mil empregado SMB<5mil
39 39 bom idade>45 casado poup<10mil outro SMB<5mil
40 40 mau idade>45 casado poup10a100mil empregado SMB5a20mil
41 41 bom idade>45 separado poup10a100mil prof_liberal SMB>20mil
42 42 mau idade>45 casado poup>100mil executivo SMB5a20mil
43 43 mau idade>45 casado poup<10mil outro SMB<5mil
44 44 mau idade>45 viuvo poup10a100mil outro SMB<5mil
45 45 bom idade>45 casado poup10a100mil empregado SMB5a20mil
46 46 mau idade>45 separado poup10a100mil empregado SMB<5mil
47 47 bom idade>45 casado poup10a100mil empregado SMB5a20mil
48 48 bom idade>45 viuvo poup>100mil executivo SMB>20mil
49 49 mau idade>45 separado poup10a100mil empregado SMB<5mil
50 50 bom idade>45 viuvo poup>100mil prof_liberal SMB>20mil
Divida BImovs
1 div<10mil bens<15mil
2 div10a50mil bens<15mil
3 div<10mil bens15a100mil
4 div<10mil bens15a100mil
5 div>50mil bens>100mil
6 div>50mil bens15a100mil
7 div<10mil bens15a100mil
8 div<10mil bens<15mil
9 div10a50mil bens15a100mil
10 div>50mil bens>100mil
11 div<10mil bens>100mil
12 div<10mil bens15a100mil
13 div<10mil bens<15mil
14 div<10mil bens15a100mil
15 div<10mil bens15a100mil
16 div10a50mil bens15a100mil
17 div10a50mil bens>100mil
18 div10a50mil bens>100mil
19 div<10mil bens>100mil
20 div<10mil bens>100mil
21 div>50mil bens>100mil
22 div<10mil bens>100mil
23 div10a50mil bens15a100mil
24 div<10mil bens<15mil
25 div10a50mil bens>100mil
26 div10a50mil bens>100mil
27 div>50mil bens15a100mil
28 div>50mil bens>100mil
29 div10a50mil bens<15mil
30 div<10mil bens15a100mil
31 div<10mil bens>100mil
32 div10a50mil bens15a100mil
33 div10a50mil bens>100mil
34 div<10mil bens15a100mil
35 div<10mil bens>100mil
36 div<10mil bens>100mil
37 div<10mil bens>100mil
38 div>50mil bens<15mil
39 div10a50mil bens>100mil
40 div10a50mil bens15a100mil
41 div<10mil bens>100mil
42 div>50mil bens15a100mil
43 div10a50mil bens>100mil
44 div<10mil bens15a100mil
45 div<10mil bens>100mil
46 div10a50mil bens>100mil
47 div<10mil bens>100mil
48 div10a50mil bens>100mil
49 div10a50mil bens15a100mil
50 div<10mil bens>100mil
eigenvalue variance.percent cumulative.variance.percent
Dim.1 0.434500086 20.4470629 20.44706
Dim.2 0.243784193 11.4721973 31.91926
Dim.3 0.215191427 10.1266554 42.04592
Dim.4 0.184148695 8.6658210 50.71174
Dim.5 0.157423013 7.4081418 58.11988
Dim.6 0.146301364 6.8847701 65.00465
Dim.7 0.129179937 6.0790558 71.08370
Dim.8 0.122401404 5.7600661 76.84377
Dim.9 0.109974337 5.1752629 82.01903
Dim.10 0.088554659 4.1672781 86.18631
Dim.11 0.082599420 3.8870315 90.07334
Dim.12 0.065871827 3.0998507 93.17319
Dim.13 0.056775572 2.6717916 95.84499
Dim.14 0.040778027 1.9189660 97.76395
Dim.15 0.022444055 1.0561908 98.82014
Dim.16 0.017234032 0.8110133 99.63116
Dim.17 0.007837953 0.3688449 100.00000
fviz_mca_var(res.mca,
col.var = "contrib", # Cores baseadas na contribuição para as dimensões (opcional)
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), # Paleta de cores para a contribuição (opcional)
repel = TRUE, # Evita a sobreposição de rótulos
ggtheme = theme_minimal()) # Tema minimalista (opcional)O biplot revela dois perfis de cliente bem distintos, separados pelo eixo horizontal (Dim1).
bom está muito próxima de executivo, poup>100mil e SMB>20mil.idade>45 e viuvo), com alta poupança (poup>100mil), alta renda (SMB>20mil) e muitos bens (bens>100mil).div<10mil) também está localizada neste lado do gráfico.idade<25), solteiro, empregado e com pouca poupança (poup<10mil).div>50mil e div10a50mil) também está no lado direito, próxima do ponto mau e de categorias como separado e outro.SMB<5mil) está fortemente associada a esse perfil.A principal função da Dimensão 2 é contrastar dois perfis de cliente que, embora possam ter a mesma qualidade de crédito, se distinguem por outras características demográficas e financeiras.
idade<25 e solteiro com empregado, SMB5a20mil (saldo bancário médio), e poupança e bens baixos (poup<10mil e bens<15mil). Este perfil representa um tipo de risco de crédito mais ligado à fase da vida e à falta de estabilidade financeira inicial.viuvo, que se associa fortemente com bom crédito. Isso sugere que o perfil de viúvo é distinto dos outros perfis de bom crédito (como executivo e idade>45), que estão mais próximos do centro do eixo 2.separado, que se associa a categorias de alto risco como SMB<5mil (baixo saldo bancário) e div>50mil (alta dívida). Este é um tipo de perfil de mau crédito diferente do perfil jovem, possivelmente ligado a eventos de vida que afetaram a estabilidade financeira.